Ich schreibe gerade einen grundlegenden Parser für eine XML-Variante. Als Übung implementiere ich einen tabellengesteuerten LL-Parser. Dies ist mein Beispiel für die BNF-Grammatik: % Token Name Datenzeichenfolge %% / * LL (1) * / doc: elem elem: "<" open_tag open_tag: name attr close_tag close_tag: ">" elem_or_data "" name ">" | "/>" ;; elem_or_data: "<" open_tag elem_or_data | Daten elem_or_data | / * epsilon * / ;; attr: name ":" string attr | / * epsilon * / ;; Ist diese Grammatik korrekt? Jedes Terminalliteral steht zwischen Anführungszeichen. Die abstrakten Terminals werden durch% token angegeben. Ich codiere einen handgeschriebenen Lexer, um meine Eingabe in eine Token-Liste umzuwandeln. Wie würde ich die abstrakten Terminals tokenisieren?
2021-03-03 08:11:10
Der klassische Ansatz wäre, für jedes mögliche Terminal einen regulären Ausdruck (oder einen anderen Erkenner) zu schreiben. Was Sie "abstrakte" Terminals nennen, die vollkommen konkret sind, sind tatsächlich Terminals, deren zugehörige Muster mehr als eine mögliche Eingabezeichenfolge erkennen. Die tatsächlich erkannte Zeichenfolge (oder eine berechnete Funktion dieser Zeichenfolge) sollte als semantischer Wert des Tokens an den Parser übergeben werden. Nominell führt der Tokeniser an jedem Punkt in der Eingabezeichenfolge alle Erkenner aus und wählt den mit der längsten Übereinstimmung aus. (Dies ist die sogenannte "Maximum Munch" -Regel.) Dies kann normalerweise optimiert werden, insbesondere wenn alle Muster reguläre Ausdrücke sind. (F) lex übernimmt diese Optimierung beispielsweise für Sie. Eine Komplikation in Ihrem Fall ist, dass die Tokenisierung Ihrer Sprache kontextabhängig ist. Insbesondere wenn das Ziel elem_or_data ist, sind die einzigen möglichen Token <, und "data". Innerhalb eines Tags sind jedoch "Daten" nicht möglich, und "Name" - und "Zeichenfolge" -Tags sind (unter anderem) möglich. Es ist auch möglich, dass der Wert eines Attributs dieselbe lexikalische Form wie der Schlüssel (d. H. Ein Name) hat. In XML selbst muss der Attributwert eine Zeichenfolge in Anführungszeichen sein, und die Verwendung einer nicht in Anführungszeichen gesetzten Zeichenfolge wird als Fehler gekennzeichnet. Es gibt jedoch sicherlich "XML-ähnliche" Sprachen (z. B. HTML), in die Attributwerte ohne Leerzeichen eingefügt werden können nicht zitiert. Da die lexikalische Analyse vom Kontext abhängt, muss dem lexikalischen Analysator eine zusätzliche Information übergeben werden (oder Zugriff darauf haben), die den lexikalischen Kontext definiert. Dies wird normalerweise als einzelner Aufzählungswert dargestellt, der basierend auf den letzten zurückgegebenen Token oder basierend auf dem ERSTEN Satz des aktuellen Parser-Stapels berechnet werden kann. 2 | Deine Antwort StackExchange.ifUsing ("Editor", function () { StackExchange.using ("externalEditor", function () { StackExchange.using ("Snippets", function () { StackExchange.snippets.init (); }); }); }, "Code Ausschnitte"); StackExchange.ready (function () { var channelOptions = { Tags: "" .split (""), id: "1" }; initTagRenderer ("". split (""), "" .split (""), channelOptions); StackExchange.using ("externalEditor", function () { // Editor muss nach Snippets ausgelöst werden, wenn Snippets aktiviert sind if (StackExchange.settings.snippets.snippetsEnabled) { StackExchange.using ("Snippets", function () { createEditor (); }); }} sonst { createEditor (); }} }); Funktion createEditor () { StackExchange.prepareEditor ({ useStacksEditor: false, heartbeatType: 'Antwort', autoActivateHeartbeat: false, convertImagesToLinks: true, noModals: wahr, showLowRepImageUploadWarning: true, RufToPostImages: 10, bindNavPrevention: true, Postfix: "", imageUploader: { brandingHtml: "Powered by \ u003ca href = \" https: //imgur.com/ \ "\ u003e \ u003csvg class =" svg-icon "width =" 50 "height =" 18 "viewBox = "0 0 50 18" fill = "none" xmlns = "http: //www.w3.org/2000/svg" \ u003e \ u003cpath d = "M46.1709 9.17788C46.1709 8.26454 46,2665 7,94324 47,1084 7.58816C47.4091 7,46349 47,7169 7,36433 48,0099 7.26993C48.9099 6,97997 49,672 6,73443 49,672 5.93063C49.672 5,22043 48,9832 4,61182 48,1414 4.61182C47.4335 4,61182 46,7256 4,91628 46,0943 5.50789C45.7307 4,9328 45,2525 4,66231 44,6595 4.66231C43.6264 4,66231 43,1481 5,28821 43.1481 6.59048V11.9512C43.1481 13.2535 43.6264 13.8962 44.6595 13.8962C45.6924 13.8962 46.1709 13.2535 46.1709 11.9512V9.17788Z 41.5985 12.6954 41.5985 10.1419V6.59049C41.5985 5.28821 41.1394 4.66232 40.1061 4.66232C39.0732 4.66232 38.5948 5.28821 38.5948 6.59049V9.60062C38.5948 10.8521 38.2696 11.5455 37.0455 5. 521 35.4954 9.60062V6.59049C35.4954 5.28821 35.0173 4.66232 34.0034 4.66232C32.9703 4.66232 32.492 5.28821 32.492 6.59049V10.1419Z = "M25.6622 17.6335C27.8049 17.6335 29.3739 16.9402 30.2537 15.6379C30.8468 14.7755 30.9615 13.5579 30.9615 11.9512V6.59049C30.9615 5.28821 30.4833 4.66231 29.4502 4.66231C28.9913 4.662314.457 1369 4.56087 21.0134 6.57349 21.0134 9.27932C21.0134 11.9852 23.003 13.913 25.3754 13.913C26.5612 13.913 27.4607 13.4902 28.1109 12.6616C28.1109 12.7229 28.1161 12.7799 28.121 12.83421. 15.2321 24.1352 14.9821 23.5661 14.7787C23.176 14.6393 22.8472 14.5218 22.5437 14.5218C21.7977 14.5218 21.2429 15.0123 21.2429 15.6887C21.2429 16.7375 22.9072 17.6335 25.6622 17.6335ZM24.1317 9.279242 27.2119 7.09766 28.0918 7.94324 28.0918 9.27932C28.0918 10.6321 27.2311 11.5116 26.1024 11.5116C24.9737 11.5116 24.1317 10.6491 24.1317 9.27932Z \ "/ \ u003e \ u003cpath d =" M16.804513.8962C19.3298 13.8962 19.8079 13.2535 19.8079 11.9512V8.12928C19.8079 5.82936 18.4879 4.62866 16.4027 4.62866C15.1594 4.62866 14.279 4.98375 13.3609 5.88013C12.653 13.0513.133. 13.9157 13.2535 13.9157 11.9512V8.90741C13.9157 7.58817 14.3365 6.91179 15.4269 6.91179C16.4027 6.91179 u 13.2535 3.316 75 11.9512V6. Z "fill =" # 1BB76E "/ \ u003e \ u003c / svg \ u003e \ u003c / a \ u003e", contentPolicyHtml: "Benutzerbeiträge lizenziert unter \ u003ca href = \" https: //stackoverflow.com/help/licensing \ "\ u003ecc by-sa \ u003c / a \ u003e \ u003ca href = \" https://stackoverflow.com / legal / content-policy \ "\ u003e (Inhaltsrichtlinie) \ u003c / a \ u003e", allowUrls: true }, onDemand: wahr, discardSelector: ".discard-answer" , sofortShowMarkdownHelp: true, enableTables: true, enableSnippets: true }); }} }); Vielen Dank, dass Sie eine Antwort auf Stack Overflow gegeben haben! Bitte beantworten Sie die Frage unbedingt. Geben Sie Details an und teilen Sie Ihre Forschung! Aber vermeiden Sie ... Um Hilfe bitten, Klarheit schaffen oder auf andere Antworten antworten. Stellungnahmen auf der Grundlage von Meinungen abgeben; Sichern Sie sie mit Referenzen oder persönlichen Erfahrungen. Weitere Informationen finden Sie in unseren Tipps zum Schreiben großartiger Antworten. Entwurf gespeichert Entwurf verworfen Anmelden oder anmelden StackExchange.ready (function () { StackExchange.helpers.onClickDraftSave ('# login-link'); }); Melden Sie sich mit Google an Melde dich über Facebook an Melden Sie sich mit E-Mail und Passwort an einreichen Post als Gast Name Email Erforderlich, aber nie gezeigt StackExchange.ready ( function () { StackExchange.openid.initPostLogin ('. New-post-login', 'https% 3a% 2f% 2fstackoverflow.com% 2fquestions% 2f54745855% 2ftokenize-abstract-terminals-in-ll-grammar% 23new-answer', 'question_page' ); }} ); Post als Gast Name Email Erforderlich, aber nie gezeigt Veröffentlichen Sie Ihre Antwort Verwerfen Wenn Sie auf "Antwort posten" klicken, stimmen Sie unseren Nutzungsbedingungen, Datenschutzbestimmungen und Cookie-Richtlinien zu Nicht die Antwort, die Sie suchen? Durchsuchen Sie andere Fragen mit dem Tag parsing lexer bnf ll rekursive Abstammung oder stellen Sie Ihre eigene Frage.